iT邦幫忙

2024 iThome 鐵人賽

DAY 22
0

今天的工作重點是確認並計算樣本的總讀數,這是 RPKM 算法中非常重要的一部分,總讀數是每個樣本中所有基因的讀數總和,它用來標準化基因的表現量,從而使不同樣本之間的數據具有可比性。

在實際的過程中,總讀數的計算相對簡單,因前面已經從 Excel 文件中提取了樣本的讀數數據

以下是具體的 Code:

# 提取樣本的讀數數據,假設讀數從第二列到第89列
read_counts = df.iloc[:, 1:89]

# 接著計算每個樣本的總讀數
total_reads = read_counts.sum(axis=0)

# 最後輸出總讀數
print(total_reads)

上面我使用 pandassum() 函數來計算每個樣本的總讀數,axis=0 表示沿著列進行總和計算,也就是將每個樣本中的所有基因讀數加在一起。

接著我利用 describe() 函數輸出總讀數的統計訊息,包括平均值、最小值、最大值等檢查這些總讀數的範圍和統計訊息,已確保數據的合理性:

# 檢查總讀數的統計信息
print(total_reads.describe())

以上我已經計算完基因的總讀數,並利用公式確保數據沒有異常。


上一篇
Day21:理解 RPKM 計算與數據準備
下一篇
Day23:準確計算基因的 RPKM 值
系列文
從零基礎到實戰:利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量25
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言